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云 算 力 新 闻 大 数据 平台 研究 


摘 要 : 各 新 闻 大 数据 公司 的 数据 处 理 能 力 不 同 、 专 业 领 域 不 同 ， 本 平台 研究 如 何 利 用 各 家 能 力 ， 
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以 低 成 本 的 方式 实现 功能 


更 强大 的 、 数 据 更 全 面 、 分 析 更 准确 、 速 度 更 快 的 新 闻 大 数据 平台 。 
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引言 


百度 、 腾 讯 、 新 浪 、 网 易 、 搜 狐 、 今 日 头条 等 各 公 
司 的 许多 产品 提供 了 新 闻 的 与 情 、 热 点 、 热 搜 \ 快 讯 . 头 条 、 
排行 等 信息 ， 但 是 每 个 公司 自身 的 数据 来 源 不 同 ， 所 以 
各 自 的 产品 服务 各 有 自己 的 侧重 ， 比 如 新 浪 的 微 博 海量 
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可 以 发 起 针对 各 大 大 数据 公司 的 数据 请 求 ， 得 到 经 过 智 
能 分 析 、 过 滤 、 排 重 、 本 地 化 、 定 向 处 理 后 的 最 理想 的 
数据 结果 ， 形 成 最 全 面 、 能 力 最 强 、 最 专业 、 最 及 时 的 
与 情 服 务 ,提供 最 新 新 闻 、 深 动 头 条 、 地 域 新 闻 、 传 播 榜 单 、 
传播 路 径 、 趋 势 分 析 、 热 门 话题 、 民 生 热 点 、 与 情 分 析 、 


数据 的 优势 ， 其 与 情 产品 导 情 通 的 热点 、 影 响 力 等 基于 
微 博 的 分 析 更 有 权威 性 。 相 比 ， 腾 讯 的 腾讯 大 数据 ， 基 
于 微 信 公众 号 等 海量 新 闻 数 据 的 分 析 更 为 准确 。 而 综合 
的 新 闻 大 数据 平台 , 数据 越 全 面 越 好 , 涉及 到 网 站 、 微 博 、 
微 信 、APP、 公 众 号 、 论 坛 等 各 类 新 闻 渠 道 ， 依 赖 单一 数 
据 ， 数据 单薄 、 分 析 结 果 不 全 面 、 不 准确 。 数 据 越 全 面 ， 
分 析 结 果 会 越 准确 、 及 时 、 可 靠 、 客 观 。 本 平台 研究 妇 
何 利 用 各 大 数据 公司 的 能 力 ， 以 单一 大 数据 平台 提供 服 
务 ,通过 整合 、 细 分 采购 、 个 性 抓 取 等 组 合 情 况 下 ， 大 
大 降低 各 新 闻 单 位 、 政 府 部 门 采 购 大 数据 鼻 情 服务 的 成 
本 ， 并 得 到 更 佳 的 服务 。 
1. 何 为 云 算 力 

大 数据 的 分 析 ， 设 计 到 数据 量 非常 大 ， 需 要 的 计算 
机 处 理 能 力 要 很 强 ， 才 能 短 时 间 内 得 到 想 要 的 结果 。 算 
力 , 主要 指 计算 能 力 , 如 比特 币 矿 机 的 算 力 ( 也 称 哈 希 率 ) 
是 比特 币 网 络 处 理 能 力 的 度量 单位 ， 即 为 计算 机 (CPU ) 
计算 哈 希 函数 输出 的 速度 ,本文 “ 云 算 词 , 借用 “ 算 
力 ” 一 词 ,来 表达 整合 各 家 公司 独立 的 云 计算 能 力 到 一 起 ， 
从 而 形成 的 基于 云端 的 数据 处 理 能 
2. 平 台 研 究 

本 平台 研究 基于 各 家 新 闻 大 数据 公司 计算 能 力 之 上 


热 搜 、 热 词 、 地 域 排行 、 地 域 热 点 、 热 门人 物 等 等 不 同 
侧面 、 角 度 、 地 域 、 领 域 、 群 体 等 分 析 , 涵盖 新 闻 网 站 类 、 
政府 网 站 类 、 搜 索 门户 类 、 论坛 社区 类 、 微 博 类 、 微 信和 类、 
新 闻 客 户 端 类 等 各 类 数据 源 。 

2.1 可 行 性 

技术 上 ， 本 平台 依赖 于 其 他 公司 的 处 理 能 力 ， 能 选 
择 接 和 平台 的 大 数据 公司 ， 要 求 有 开放 接口 API， 或 有 数 
据 推送 方式 。 和 否则 就 需要 自己 抓 取 结果 网 页 后 入 库 。 商 
务 上 ， 购 买 各 家 公司 的 大 数据 服务 ， 并 没有 在 授权 上 限 
制 在 单一 平台 多 次 展示 给 不 同 的 商业 用 户 ， 从 而 可 以 从 
各 家 人 够 买 数据 服务 后 ， 综 合 整理 后 展示 给 通过 不 同 账号 
登录 到 本 平台 的 不 同 目 标 客 户 ， 通 过 多 次 销售 ， 从 而 均 
挫 从 各 个 公司 购买 的 数据 服务 的 费用 ， 从 而 达到 以 低 价 
格 购买 高 质量 新 闻 舆 情 服 务 的 目标 。 

2. 2 实施 方案 

平台 的 实施 ， 不 仅仅 是 数据 的 整合 ， 还 要 涉及 到 其 
他 几 个 方面 : 

(1) 各 新 闻 大 数据 公司 现 有 服务 内 容 及 对 接 : 每 个 
公司 某 些 现 有 的 服务 , 不 用 处 理 就 可 以 直接 展示 给 用 户 ， 
也 具有 权威 性 ， 符 合用 户 的 需要 。 

(2 ) 各 大 数据 公司 处 理 能 力 对 接 : 根据 各 公司 接口 


的 综合 平台 , 智能 化 利用 各 大 公司 的 算 力 , 为 新 闻 单 位 、 
政府 部 门 等 需要 与 情 服务 的 单位 ， 使 用 单一 云 平 台 ， 就 


方式 ， 完 成 各 公司 数据 服务 的 对 接 ， 利用 API、 网 页 抓 取 
等 方式 。 
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(3 ) 大 数据 公司 处 理 结果 的 数据 清洗 、 去 重 、 元 数 
据 统一 等 ， 合 并 成 一 致 的 数据 。 各 公司 的 数据 定义 方式 
不 一 致 ， 比 如 基本 信息 、 日 期 格式 、 打 分 取 值 范围 等 等 ， 
需要 统一 格式 、 去 掉 重 复数 据 ， 清 洗 成 一 致 的 有 效 数据 。 

(4) 各 方 数据 处 理 结果 整合 : 加 权 综 合 、 本 地 化 、 
定向 处 理 等 。 在 展示 数据 时 ， 用 到 各 公司 数据 ， 需 要 对 
其 加 权 后 整合 ， 并 且 根 据 用 户 需 要 ， 去 掉 无 关 的 地 域 的 
数据 ， 只 保留 用 户 关 心 的 、 当 地 的 数据 。 

(5 ) 综合 调度 : 如 在 用 户 对 某 项 服务 发 起 请 求 ， 能 
按照 需要 由 平台 后 台 分 别 对 各 大 数据 公司 同时 发 起 服务 
请 求 ， 再 把 返回 的 结果 整合 后 展示 给 用 户 。 

当然 还 包括 个 性 化 的 本 地 数据 的 抓 取 、 个 性 化 新 闻 
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与 情 服 务 、 多 租户 管理 、 不 同 使 用 单位 的 数据 分 离 等 等 。 

平台 功能 举例 : 如 展示 某 条 新 闻 的 传播 效果 ， 就 要 
涵盖 报纸 、 网 站 、 微 信 、 微 博 、APP、 论 坛 、 社 交 网 络 等 
多 个 渠道 的 传播 数据 ， 才 能 更 全 面 展示 一 条 新 闻 的 影响 
力 、 爆 发 点 、 时 间 线 等 ， 新闻 受众 在 不 同 新 闻 传 播 渠道 
上 的 比重 不 同 、 各 新 闻 渠 道 时 效 不 同 ， 新 闻 传 播 表 现在 
不 同 新 闻 传 播 渠 道 的 爆发 期 、 发 散 期 、 前 弱 期 、 终 结 期 
时 间 段 也 各 异 ， 需 要 从 各 个 数据 平台 抓 取 结果 后 ， 通 过 
加 权 整 合 形成 一 个 相对 完整 客观 的 时 间 线 曲线 , 同时 保存 
各 新 闻 渠 道 的 时 间 线 供用 户 参 考 ， 各 个 渠道 的 点 击 量 、 
评论 数 、 受 众 群 体 的 画像 等 也 需要 整合 ， 展 示 成 图 、 表 、 
曲线 等 方式 ， 提 供给 用 户 。 
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结语 

云 算 力 新 闻 大 数据 平台 在 投入 上 ， 比 各 大 数据 公司 
的 数据 分 析 平 台 肯 定 要 少 很 多 ,数据 存储 、 运 算 能 力 等 
方面 ， 要求 都 很 低 ， 整 合 出 来 的 理想 效果 并 不 差 .并且 
比 单一 大 数据 公司 的 服务 还 有 加 强 。 当 然 这 些 依赖 于 最 
终 用 户 数 量 的 多 少 ， 来 分 挫 各 大 数据 公司 的 服务 费用 ， 
并 且 运 营 好 这 样 一 个 平台 ， 开 发、 维护 的 工作 量 也 占 一 
定 的 比例 。 辕 
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